科研星球

什么是工具变量?

        工具变量本身是一个计量经济学的概念,它的出现是为了克服普通最小二乘法中的内生性问题。在这里,内生性是指回归模型中的解释变量(X)和随机扰动项(δ)相关。

下载.jpeg

如果内生性存在,便会大大降低回归模型的估计效力。

        举个简单的例子,某研究组想了解非洲村落里的儿童补充维生素A和其死亡情况的关联,如果仅仅利用维生素A的服用情况和死亡情况去判断两者的关联,那极有可能会产生很大的偏倚,这是因为维生素A的服用情况和很多潜在因素相关,比如家庭的经济困难程度、家庭成员以及实验儿童的依从性,而这些潜在的因素也可能对儿童的身体健康有很大的影响。因此,在研究起始设计中,研究者便利用工具变量来解决这个问题。

下载 (1).jpeg

        在这里,工具变量Z是指服用维生素A这个任务,类似于随机抽签。这样的话工具变量Z便只和X服用维生素A这个行为相关,与除X以外的混杂因素不相关。这样便解决了用最小二乘法进行回归分析时的变量内生性问题。当然,如果需要借用工具变量Z来推导服用维生素A和死亡率的关系,我们需要用到两阶段最小二乘法(two stage least squares, TSLS):

第一步:建立自变量X和工具变量的回归模型

下载 (2).jpeg

在这一步中,需要验证,Cov(Z, ε)= 0,也即工具变量和混杂因素无关。另外还需要考虑上述方程的决定系数或者说是F统计量,以及判断Z和X的关联强度。通常情况下,决定系数或者F统计量越大,说明Z和X的关联程度越大。

第二步:将第一步中拟合的X的估计量带入如下方程:

下载 (3).jpeg

其中β便是X对Y的纯净效应量。

 

        当然,关于工具变量的使用还有很多细节的内容,在这里就不赘述了,有兴趣的小伙伴可以查阅相关文献。下一次我将详细介绍这个维生素A的研究结果的数据分析!


参考文献:

1. Lousdal ML: An introduction to instrumental variableassumptions, validation and estimationEmergThemes Epidemiol 2018, 15:7.


没有账号?